A poluição atmosférica é uma séria ameaça à saúde pública,
associada à doenças como AVC, doenças cardíacas, câncer de pulmão,
doenças respiratórias e à mortes prematuras causadas por essas doenças.
Neste contexto, grande atenção é dada ao poluente particulado fino com
diâmetro inferior a 2,5 μm (PM2,5), um material contido em atmosferas
poluídas, associado à diferentes fontes de emissão e que penetra
profundamente nos pulmões, sendo assim importante indicador de risco com
grande impacto na saúde da populaçã exposta, sendo as populações
vulneráveis (crianças, idosos, gestantes e pessoas com doenças crônicas)
as mais afetadas.
No Brasil, a poluição atmosférica afeta gravemente diversas
regiões do país, exigindo atenção e ações coordenadas em todo o
território nacional. Estima-se que no país, 51 mil mortes por ano
estejam ligadas à poluição do ar (Quintanilha, 2021). Embora o estado de
São Paulo não seja o único com altos níveis de poluição atmosférica no
Brasil, ele se destaca por concentrar várias das cidades historicamente
mais poluídas do país. Estudos recentes indicam que municípios paulistas
como Osasco, Guarulhos, São Caetano, Rio Claro e Cubatão apresentam
níveis de PM2,5 significativamente muito acima dos limites recomendados
pela Organização Mundial da Saúde (OMS). Além disso, em setembro de
2024, a cidade de São Paulo liderou o ranking mundial de pior qualidade
do ar entre as metrópoles analisadas em tempo real pela plataforma suíça
IQAir, superando cidades como Lahore e Pequim, que até então eram
tradicionalmente conhecidas como as mais poluídas do mundo.
Descrever o comportamento das concentrações de PM2,5 no Estado
de São Paulo, no ano de 2023; comparar as medidas destas concentrações
obtidas via satélite por duas fontes distintas (CAMS-SISAM e Donkelaar);
analisar a significância das diferenças obtidas entre as duas medidas e
analisar a concordância entre as duas medidas.
Fonte 1: CAMS-SISAM. Os dados primários desta fonte contém
medidas diárias de PM2,5 em cada município de cada Unidade de Federação
do país, no ano de 2023, obtidas via satélite pelo CAMS (Copernicus
Atmosphere Monitoring Service), disponibilizado na plataforma
SISAM(Sistema de Informações integradas à Saúde Ambiental) e em https://atmosphere.copernicus.eu/charts/packages/cams/.
Nesta base, cada medida registrada refere-se à média diária de PM2,5 no
respectivo local.
O SISAM é um sistema do Ministério da Saúde do Brasil, utilizado
para coletar, armazenar e analisar dados relacionados à saúde
ambiental;monitorar riscos e exposições ambientais que afetam a saúde da
população;apoiar políticas públicas de vigilância em saúde ambiental. A
plataforma SISAM apresenta planilhas com dados meteorológicos e de
qualidade do ar estimadas por sensoriamento remoto para todos os estados
e municípios brasileiros, por data e hora. Jacobson et al.
(2024) relatam que o SISAM tem como fonte o Copernicus Atmosphere
Monitoring Service (CAMS), conjunto de dados de reanálise global da
composição atmosférica produzido pelo European Centre for Medium-Range
Weather Forecasts com o Integrated Forecasting System atualizado. O CAMS
combina informações de observações in situ e de satélite com
modelos computacionais da atmosfera para gerar uma estimativa, a mais
precisa possível, de gases e aerosóis atmosféricos. A validação do CAMS
é realizada periodicamente e coordenada pela Royal Dutch Meteorological
Organization. Innes et al. (2019) avaliaram o desempenho das
reanálises do CAMS comparando versões anteriores, e Wang et al.
(2020) validaram o CAMS usando medições de aeronaves em diferentes
partes do mundo, incluindo o Brasil.
Fonte 2: Donkelaar. Os dados primários desta fonte contém média,
desvio padrão, mínimo e máximo mensais das medidas de PM2,5 em cada
município de cada Unidade de Federação do país, no ano de 2023, obtidas
via satélite e registradas pelo grupo de Pesquisa de Aaron van
Donkelaar, um professor da Washington University in St. Louis,
disponibilizados em https://sites.wustl.edu/acag/datasets/surface-pm2-5/#V6.GL.02.03.
Para ambas as foontes de dados, que continham dados de todos as
Unidades da Federação do país, foram filtrados os dados do Estado de São
Paulo, que possui Código Identificador de Unidade da Federação igual a
35 e contém 645 municípios. Uma vez que os dados primários da Fonte 1
(dados CAMS-SISAM) eram médias diárias e os dados primários da Fonte 2
(Donkelaar) eram médias mensais, foram calculadas as médias mensais dos
dados CAMS-SISAM para que as bases pudessem ser comparadas a partir da
mesma medida, ficando asssim disponibilizada para comparação em cada uma
das bases, as 12 médias mensais de cada um dos 654 municipios. Foi
construída assim uma base de dados com informação do mês, do município,
das duas medias mensais pareadas, com n = 12x645 = 7740 observações (12
médias mensais de cada município). Foi construída também uma base com as
médias anuais de cada um dos 645 municípios, com informação do município
e das duas médias anuais pareadas, com n= 1x645 = 645 observações (1
média anual de cada município). E para comparação temporal de uma média
global em cada mês do ano, foi construída uma terceira base de dados com
informaçã do mês e da média global dos 645 municípios de cada mês,
obtida a partir de cada uma das duas fontes de dados, sendo assim uma
base com informacao do mes, e das duas médias globais mensais, com n =
12x 1= 12 observações.
A análise descritiva das três bases de dados foi realizada a
partir de gráficos, mapas descritivos, e cálculo de estatísticas
descritivas.
Para a análise da significância das diferenças observadas entre
as duas medidas a serem comparadas, a normalidade das duas distribuições
foi investigada pelo teste de Shapiro-Wilk. A comparação pareada de duas
medidas foi realizada por abordagem não paramétrica, através do Teste de
Wilcoxon, para bases de tamanho de amostra pequeno (menor que 30) ou
quando a hipótese de normalidade não foi confirmada para as
distribuições das medidas comparadas. Para bases de tamanho muito grande
(maiores que 5400), para os quais o teste de normalidade de Shapiro Wilk
não é executado no R, foi considerada normalidade e a comparação pareada
foi feita pelo teste paramétrico t-de Student pareaodo.
A análise de correlação entre duas medidas foi feita sob as duas
abordagens, paramétrica e não paramétrica, através da cálculo do
Coeficiente de Correlação Linear de Pearson e do Coeficiente de
Correlação de Ordem de Spearman. A significância dos Coeficientes de
Correlação foi verificada pelo Teste t para o Coeficiente de Correlação.
A correlação foi considerada forte apenas se seu valor absoluto fosse
maior que 0,7 e moderada se seu valor absoluto fosse maior que 0,5 e
menor ou igual a 0,7.
A Análise de Concordância entre as duas medidas se baseou no uso
de três ferramentas: Estimativa pontual e estimativa intervalar do
Coeficiente de Correlação Intraclasse (ICC, do inglês, Intraclass
Correlation Coefficient) e análise do Gráfico de Altman-Bland.
O ICC expressa a proporção de variabilidade total que é devida à
variabilidade entre as unidades. Neste caso de estar avaliando a
concordância entre duas medidas, o ICC pode ser interpretado como uma
medida de concordância que mede o grau de afastamento das duas medidas à
reta de 45 graus, onde teria concordância perfeita, pois ambas medidas
seriam iguais.A classificação da concordância a partir do ICC foi
baseada na classificação de Weir (2005) dada por:
0,00 ≤ ICC ≤ 0,20 = concordância pobre,
0,20 < ICC ≤ 0,40 = concordância razoável,
0,40 < ICC ≤ 0,60 = concordância boa,
0,60 < ICC ≤ 0,80 = concordância muito boa,
0,80 < ICC ≤ 1,00 = concordância excelente.
A significância do ICC foi analisada pelo intervalo de confiança
do ICC ao nível de 95% de confiança. A concordância foi considerada
significativamente boa se o mínimo valor do intervalo de confiança do
ICC ao nível de 95% de confiança fosse ao nível de “boa concordância”,
ou seja, maior que 0,4 e menor ou igual a 0,6. A concordância foi
considerada significativamente muito boa se o mínimo valor do intervalo
de confiança do ICC ao nível de 95% de confiança fosse ao nível de
“muito boa concordância”, ou seja, maior que 0,6 e menor ou igual a
0,80. A concordância foi considerada significativamente excelente se o
mínimo valor do intervalo de confiança do ICC ao nível de 95% de
confiança fosse ao nível de “excelente concordância”, ou seja, maior que
0,8 e menor ou igual a 1,0. Considerou-se neste trabalho validação da
confiabilidade se a concordância entre elas fosse significativamente
boa, ou significativamente muito boa, ou significativamente excelente.
Ou seja, o valor mínimo do intervalo de confiança para o ICC deve ser
maior que 0,4 para que a concordância entre elas seja considerada
significativa e seja validada a confiabilidade de uma medida em relação
a outra.
O Gráfico de Altman-Band é um diagrama de dispersão no plano
cartesiano XY, onde no eixo Y representa-se a variação D entre as duas
medidas comparadas e no eixo X a média entre estas duas medidas. Na
análise do Gráfico de Altman-Band, a presença de correlação linear entre
estas medidas X e Y é indicativo de vieses ou problemas de calibração de
um dos métodos de medida. Os limites de concordância marcados no gráfico
de Altman-Bland são dados por: média da variação D mais ou menos 1,96
vezes o desvio padrão da variação D.
Todas as manipulações das bases de dados e análises estatísticas
foram realizadas no programa R 4.4.0 e foi adotado nível de
significância máximo de 5% para análise dos resultados dos testes de
hipóteses.
Nesta seção é realizada a comparação das 12 médias mensais de
cada um dos 645 municípios estimadas pelas medidas do CAMS-SISAM e
Donkelaar, logo esta base tem n= 12x645=7740 médias de cada uma das
fontes de dados. A Figura 1 exibe os boxplots das distribuições das
médias mensais das concentrações de PM2,5 estimadas por sensoriamento
remoto pelo CAMS-SISAM e pelo Donkelaar. Para ambas as fontes, os
boxplots de todos os meses mostram alta variabilidade entre as médias
dos 645 municípios, com presença de muitos pontos atípicos (munícípios
com médias de PM2,5 outliers ou inliers, representadas por º nos
boxplots).
Somente no mês de Janeiro dos dados observados pelo Donkelaar,
há registro de algum município com média mensal da concentração de PM2,5
inferior a 5 μg/m3, que é a concentração máxima recomendada
pela OMS. Segundo essa base, a média global mensal da concentração de
PM2,5 no ar do Estado de São Paulo no ano de 2023 foi de
14.6 μg/m3, a partir dos dados do
CAMS-SISAM, e foi igual a 15.82 μg/m3, a
partir dos dados de Donkelaar. Logo, para ambos os métodos de medida,
CAMS-SISAM e Donkelaar, a média global mensal da concentração de PM2,5
no ar do Estado de São Paulo em 2023 era muito maior que a média máxima
recomendada pela OMS, de 5 μg/m3</sup.
Figura 1: Boxplots das distribuições das médias mensais
das concentrações de PM2,5, dados CAMS-SISAM e Donkelaar.São Paulo,
2023.
A Figura 2 mostra o Gráfico de dispersão conjunta das 7740 médias mensais de PM2,5 obtidas a partir dos dados das duas fontes e o gráfico de Altman Bland pode ser visto na Figura 3. O Coeficiente de Correlação Linear de Pearson entre as duas medidas foi igual a 0.38, com um p-valor < 0,001, e o Coeficiente de Correlação de Ordem de Spearman entreas duas medidas foi igual a 0.47, com um p-valor < 0,001, evidenciando que não há forte correlação entre as duas medidas, embora as correlações sejam significativamente distintas de zero, já que apresentaram p-valores menores que 5% no teste t de significância do coeficiente. Devido ao grande tamanho da amostra, as 7740 médias foram comparadas pareadamente pelo teste t-de Student pareado, que resultou em um p-valor < 0,001, mostrando que as diferenças entre as 7740 médias mensais dos municipios obtidas pelos dois métodos são significativas sob o ponto de vista estatístico. O ICC foi igual a 0.28, com IC95% (0.26, 0.3), evidenciando concordância pobre entre as medidas das duas fontes de dados, nesta comparação das 7740 médias, corroborando o resultado do teste de Wilcoxon e o comportamento da nuvem de pontos nos gráficos das Figuras 2 e 3.
Além da não significância do ICC, outra característica que enfraquece a evidência de concordância entre as médias obtidas por CAMS-SISAM e do Donkelaar nesta base de dados, é a presença de correlação entre a média e a diferença das duas medidas comparadas, como pode ser visualizada nítida tendencia linear crescente na formação da nuvem de pontos do gráfico de Altmam Bland exibido na Figura 3. O valor do coeficiente de correlação é igual 0.7, com um p-valor < 0,001; indicando correlação forte e significativa, com uma tendência de que quanto maior a média das duas medidas, maior a diferença. Isso sugere que há viés dependente da magnitude da medição, ou seja, as diferenças entre os métodos não são constantes ao longo do intervalo de valores medidos e os métodos se comportam de forma diferente dependendo da intensidade da variável; ou viés proporcional (um dos métodos superestima ou subestima mais à medida que o valor real aumenta); ou erro sistemático crescente (diferença entre os métodos cresce com a concentração), ou problema de calibragem (um dos métodos está mal calibrado em certas faixas).
Figura 2: Gráfico de dispersão conjunta das 7740 médias
mensais de PM2,5 obtidas pelo CAMS-SISAM e pelo Donkelaar, para os 645
municípios. São Paulo, 2023.
Figura 3: Gráfico de Altman Bland avaliando a
concordância das 7740 médias mensais de PM2,5 obtidas pelo CAMS-SISAM e
pelo Donkelaar, para os 645 municípios . São Paulo, 2023.
Nesta seção é realizada a comparação das médias anuais de cada um dos 645 municípios estimadas pelas medidas do CAMS-SISAM e do Donkelaar, logo esta base tem= 1x645=645 médias de cada uma das fontes de dados. A Figura 4 mostra o Gráfico de dispersão conjunta das 645 médias anuais de PM2,5 obtidas pelos dois métodos para os 645 municípios e o gráfico de Altman Bland pode ser visto na Figura 5.
O Coeficiente de Correlação Linear de Pearson entre as duas medidas foi igual a 0.45, com um p-valor < 0,001, e o Coeficiente de Correlação de Ordem de Spearman entre as duas medidas foi igual a 0.25, com um p-valor < 0,001, evidenciando que não há forte correlação entre as duas medidas, embora as correlações sejam significativamente distintas de zero, pois apresentaram p-valores menores que 5% no teste t de significância do coeficiente.
O teste de Shapiro-Wilk, avaliando a normalidade da distribuição, resultou em um p-valor < 0,001 para a distribuição das 645 médias anuais obtidas pelo CAM-SISAM e em um p-valor < 0,001 para a distribuição das 645 médias anuais obtidas pelo Donkelaar. Uma vez que não foi verificada a normalidade das duas distribuições, as 645 médias foram comparadas pareadamente pelo teste de Wilcoxon que resultou num p-valor < 0,001, mostrando que as diferenças entre as 645 médias anuais dos municípios obtidas pelos dois métodos são significaivas sob o ponto de vista estatístico. O ICC foi gual a 0.2, com IC95% (0.12, 0.27), evidenciando concordância pobre entre as medidas das duas fontes de dados nesta comparação das 645 médias, corroborando o resultado do teste de Wilcoxon e o comportamento da nuvem de pontos nos gráficos das Figuras 5 e 6.
Além da não significância do ICC, outra característica que enfraquece a evidência de concordância entre as médias obtidas por CAMS-SISAM e do Donkelaar nesta base de dados, é a presença de correlação entre a média e a diferença das duas medidas comparadas, como pode ser visualizada nítida tendencia linear crescente na formação da nuvem de pontos do gráfico de Altmam Bland exibido na Figura 5. O valor do coeficiente de correlação é igual 0.92, com um p-valor < 0,001; indicando correlação forte e significativa, com uma tendência de que quanto maior a média das duas medidas, maior a diferença. Isso sugere que há viés dependente da magnitude da medição, ou seja, as diferenças entre os métodos não são constantes ao longo do intervalo de valores medidos e os métodos se comportam de forma diferente dependendo da intensidade da variável; ou viés proporcional (um dos métodos superestima ou subestima mais à medida que o valor real aumenta); ou erro sistemático crescente (diferença entre os métodos cresce com a concentração), ou problema de calibragem (um dos métodos está mal calibrado em certas faixas).
Figura 4: Gráfico de dispersão conjunta das 645 médias
anuais de PM2,5 obtidas pelo CAMS-SISAM e pelo Donkelaar, para os 645
municípios. São Paulo, 2023.
Figura 5: Gráfico de Altman Bland avaliando a
concordância das 645 médias anuais de PM2,5 obtidas pelo CAMS-SISAM e
pelo Donkelaar, para os 645 municípios . São Paulo, 2023.
Figura 6: Mapa coroplético estático das médias anuais
das medidas de concentração de PM2.5 para cada município do estado de
São Paulo, obtidas pelo CAMS-SISAM
A Figura 7 exibe o mapa coroplético estático das médias anuais das medidas de concentração de PM2.5 para cada município do estado de São Paulo, calculadas a partir dos dados do Donkelaar. A distribuição da intensidade das cores, que é associada ao valor da média de concentração de PM2.5, mostram que, segundo as medidas de Donkelaar, as médias não variam tanto entre os municípios do Estado de São Paulo, e nos municipios que apresentavam as cores mais intensas na Figura 9, as cores são mais fracas segundo as medidas de Donkelaar, indicando menores médias do que as médias obtidas pelo CAMS-SISAM.
Figura 7: Mapa coroplético estático das médias anuais
das medidas de concentração de PM2.5 para cada município do estado de
São Paulo, obtidas pelo Donkelaar
A Figura 8 exibe um mapa interativo das médias anuais das medidas de
concentração de PM2.5 para cada município do estado de São Paulo. Ao
posicionar o cursor sobre a area de um município do Estado de São Paulo,
uma pop-up é ativada com informações do nome do município e as duas
médias anuais de concentração de PM2.5 calculadas a partir dos dados do
CAMS-SISAM e do Donkelaar para este município. A distribuição da
intensidade das cores neste mapa interativo usou como referência as
médias do CAMS-SISAM.